3 అక్టోబర్, 2025తెలుగు

పైథాన్‌లో స్పీచ్ రికగ్నిషన్ వెనుక ఉన్న రహస్యాలను తెలుసుకోండి. ఈ సమగ్ర గైడ్ ముడి ధ్వని తరంగాలను మెషిన్-రీడబుల్ టెక్స్ట్‌గా మార్చే ఆడియో సిగ్నల్ ప్రాసెసింగ్ పద్ధతులను వివరిస్తుంది. డెవలపర్లు మరియు డేటా సైంటిస్టులకు ఇది చాలా ఉపయోగకరం.

పైథాన్ స్పీచ్ రికగ్నిషన్: ఆడియో సిగ్నల్ ప్రాసెసింగ్‌లో ఒక లోతైన విశ్లేషణ

మన స్మార్ట్‌ఫోన్‌లను దారి అడగడం నుండి స్మార్ట్ హోమ్ పరికరాలను నియంత్రించడం వరకు, వాయిస్ కమాండ్‌లతో నిండిన ఈ ప్రపంచంలో, ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) టెక్నాలజీ మన దైనందిన జీవితంలో అంతర్భాగంగా మారిపోయింది. కానీ మీరు ఒక కమాండ్ పలికిన దానికి మరియు మీ పరికరం దానిని అర్థం చేసుకోవడానికి మధ్య ఏమి జరుగుతుందని ఎప్పుడైనా ఆలోచించారా? ఇది మ్యాజిక్ కాదు; ఇది దశాబ్దాల పరిశోధనల ఫలితంగా వచ్చిన ఒక అధునాతన ప్రక్రియ, మరియు దీనికి పునాది ఆడియో సిగ్నల్ ప్రాసెసింగ్.

ఒక కంప్యూటర్‌కు, ముడి ఆడియో కేవలం పీడన తరంగాన్ని సూచించే సంఖ్యల యొక్క పొడవైన శ్రేణి మాత్రమే. దానికి అంతర్లీనంగా ఏ అర్థం ఉండదు. ఏదేని ASR పైప్‌లైన్‌లో కీలకమైన మొదటి అడుగు, ఈ ముడి, అర్థం కాని డేటాను మెషిన్ లెర్నింగ్ మోడల్ అర్థం చేసుకోగల ఒక నిర్మాణాత్మక ప్రాతినిధ్యంలోకి మార్చడం. ఈ పరివర్తనే ఆడియో సిగ్నల్ ప్రాసెసింగ్ యొక్క ప్రధాన అంశం.

ఈ గైడ్ పైథాన్ డెవలపర్లు, డేటా సైంటిస్టులు, మెషిన్ లెర్నింగ్ ఇంజనీర్లు మరియు వాయిస్ టెక్నాలజీ యొక్క అంతర్గత పనితీరు గురించి ఆసక్తి ఉన్న ఎవరికైనా ఉద్దేశించబడింది. మనం ధ్వని యొక్క భౌతిక స్వభావం నుండి మెల్-ఫ్రీక్వెన్సీ సెప్స్ట్రల్ కోఎఫిషియంట్స్ (MFCCs) వంటి అధునాతన ఫీచర్ వెక్టర్‌లను సృష్టించడం వరకు ఒక ప్రయాణాన్ని ప్రారంభిస్తాము. ఈ భావనలను సులభతరం చేయడానికి మరియు ఆచరణాత్మక, ప్రత్యక్ష ఉదాహరణలను అందించడానికి మనం పైథాన్ యొక్క శక్తివంతమైన సైంటిఫిక్ లైబ్రరీలను ఉపయోగిస్తాము.

ధ్వని స్వభావాన్ని అర్థం చేసుకోవడం

మనం ధ్వనిని ప్రాసెస్ చేయడానికి ముందు, అది ఏమిటో మనం అర్థం చేసుకోవాలి. దాని మూలంలో, ధ్వని ఒక యాంత్రిక తరంగం - గాలి, నీరు లేదా ఘనపదార్థాల వంటి మాధ్యమం ద్వారా ప్రసారం చేయబడిన పీడనం యొక్క డోలనం. మనం మాట్లాడినప్పుడు, మన స్వర తంతువులు కంపించి, మైక్రోఫోన్‌కు ప్రయాణించే ఈ పీడన తరంగాలను సృష్టిస్తాయి.

ధ్వని తరంగం యొక్క ముఖ్య లక్షణాలు

ఆంప్లిట్యూడ్ (Amplitude): ఇది ధ్వని యొక్క తీవ్రత లేదా శబ్దానికి అనుగుణంగా ఉంటుంది. వేవ్‌ఫార్మ్‌లో, ఇది తరంగం యొక్క ఎత్తు. అధిక శిఖరాలు పెద్ద శబ్దాన్ని సూచిస్తాయి.
ఫ్రీక్వెన్సీ (Frequency): ఇది ధ్వని యొక్క పిచ్‌ను నిర్ధారిస్తుంది. ఇది ఒక సెకనుకు తరంగం పూర్తి చేసే చక్రాల సంఖ్య, దీనిని హెర్ట్జ్ (Hz)లో కొలుస్తారు. అధిక ఫ్రీక్వెన్సీ అంటే అధిక పిచ్.
టింబర్ (Timbre): ఇది ఒక ధ్వని యొక్క నాణ్యత లేదా లక్షణం, ఇది స్వరాలు మరియు సంగీత వాయిద్యాల వంటి విభిన్న రకాల ధ్వని ఉత్పత్తిని వేరు చేస్తుంది. ఒకే నోట్‌ను అదే శబ్దంతో వాయించినప్పుడు ట్రంపెట్ శబ్దం వయోలిన్ శబ్దం నుండి భిన్నంగా ఉండటానికి ఇదే కారణం. టింబర్ అనేది ధ్వని యొక్క హార్మోనిక్ కంటెంట్ ఫలితం.

అనలాగ్ నుండి డిజిటల్ వరకు: మార్పిడి ప్రక్రియ

ఒక మైక్రోఫోన్ అనలాగ్ పీడన తరంగాన్ని అనలాగ్ ఎలక్ట్రికల్ సిగ్నల్‌గా మారుస్తుంది. అయితే, ఒక కంప్యూటర్ డిస్క్రీట్ డిజిటల్ డేటాపై పనిచేస్తుంది. అనలాగ్ సిగ్నల్‌ను డిజిటల్ సిగ్నల్‌గా మార్చే ప్రక్రియను డిజిటైజేషన్ లేదా శాంప్లింగ్ అంటారు.

శాంప్లింగ్ రేట్ (Sampling Rate): ఇది ఒక సెకనుకు తీసుకోబడిన ఆడియో సిగ్నల్ యొక్క నమూనాల (స్నాప్‌షాట్‌ల) సంఖ్య. ఉదాహరణకు, CD-నాణ్యత గల ఆడియోకు 44,100 Hz (లేదా 44.1 kHz) శాంప్లింగ్ రేటు ఉంటుంది, అంటే ప్రతి సెకనుకు 44,100 నమూనాలు సంగ్రహించబడతాయి. నైక్విస్ట్-షానన్ శాంప్లింగ్ సిద్ధాంతం ప్రకారం, ఒక సిగ్నల్‌ను కచ్చితంగా పునర్నిర్మించడానికి, శాంప్లింగ్ రేటు సిగ్నల్‌లో ఉన్న అత్యధిక ఫ్రీక్వెన్సీకి కనీసం రెండు రెట్లు ఉండాలి. మానవ వినికిడి పరిధి సుమారు 20 kHz వరకు ఉంటుంది కాబట్టి, 44.1 kHz శాంప్లింగ్ రేటు సరిపోతుంది. ప్రసంగం కోసం, 16 kHz రేటు తరచుగా ప్రామాణికంగా ఉంటుంది, ఎందుకంటే ఇది మానవ స్వరం యొక్క ఫ్రీక్వెన్సీ పరిధిని తగినంతగా కవర్ చేస్తుంది.
బిట్ డెప్త్ (Bit Depth): ఇది ప్రతి నమూనా యొక్క ఆంప్లిట్యూడ్‌ను సూచించడానికి ఉపయోగించే బిట్‌ల సంఖ్యను నిర్ధారిస్తుంది. అధిక బిట్ డెప్త్ ఎక్కువ డైనమిక్ పరిధిని (అత్యంత నిశ్శబ్ద మరియు అత్యంత పెద్ద శబ్దాల మధ్య వ్యత్యాసం) అందిస్తుంది మరియు క్వాంటైజేషన్ నాయిస్‌ను తగ్గిస్తుంది. ప్రసంగం కోసం సాధారణమైన 16-బిట్ డెప్త్, 65,536 (2^16) విభిన్న ఆంప్లిట్యూడ్ విలువలను అనుమతిస్తుంది.

ఈ ప్రక్రియ యొక్క ఫలితం ఒక వన్-డైమెన్షనల్ అర్రే (లేదా వెక్టర్) సంఖ్యలు, ఇది డిస్క్రీట్ టైమ్ ఇంటర్వెల్స్‌లో ధ్వని తరంగం యొక్క ఆంప్లిట్యూడ్‌ను సూచిస్తుంది. ఈ అర్రే మనం పైథాన్‌లో పని చేసే ముడి పదార్థం.

ఆడియో ప్రాసెసింగ్ కోసం పైథాన్ ఎకోసిస్టమ్

పైథాన్ క్లిష్టమైన ఆడియో ప్రాసెసింగ్ పనులను సులభతరం చేసే లైబ్రరీల యొక్క గొప్ప ఎకోసిస్టమ్‌ను కలిగి ఉంది. మన ప్రయోజనాల కోసం, కొన్ని ముఖ్యమైనవి ఉన్నాయి.

Librosa: ఇది సంగీతం మరియు ఆడియో విశ్లేషణ కోసం ఒక ముఖ్యమైన పైథాన్ ప్యాకేజీ. ఇది ఆడియోను లోడ్ చేయడం, దానిని విజువలైజ్ చేయడం మరియు ముఖ్యంగా, అనేక రకాల ఫీచర్‌లను సంగ్రహించడం కోసం ఉన్నత-స్థాయి అబ్స్ట్రాక్షన్‌లను అందిస్తుంది.
SciPy: సైంటిఫిక్ పైథాన్ స్టాక్‌కు ఒక మూలస్తంభం, SciPy యొక్క `scipy.signal` మరియు `scipy.fft` మాడ్యూల్స్ ఫిల్టరింగ్ మరియు ఫోరియర్ ట్రాన్స్‌ఫార్మ్‌లను నిర్వహించడం వంటి సిగ్నల్ ప్రాసెసింగ్ పనుల కోసం శక్తివంతమైన, తక్కువ-స్థాయి సాధనాలను అందిస్తాయి.
NumPy: పైథాన్‌లో సంఖ్యా గణన కోసం ప్రాథమిక ప్యాకేజీ. ఆడియో సంఖ్యల అర్రేగా సూచించబడుతుంది కాబట్టి, మన డేటాపై గణిత కార్యకలాపాలను సమర్థవంతంగా నిర్వహించడానికి NumPy అనివార్యం.
Matplotlib & Seaborn: ఇవి డేటా విజువలైజేషన్ కోసం ప్రామాణిక లైబ్రరీలు. ఆడియో డేటా గురించి మన అంతర్దృష్టిని పెంచుకోవడానికి వేవ్‌ఫార్మ్‌లు మరియు స్పెక్ట్రోగ్రామ్‌లను ప్లాట్ చేయడానికి వీటిని ఉపయోగిస్తాము.

మొదటి చూపు: ఆడియోను లోడ్ చేయడం మరియు విజువలైజ్ చేయడం

ఒక సాధారణ పనితో ప్రారంభిద్దాం: ఒక ఆడియో ఫైల్‌ను లోడ్ చేసి దాని వేవ్‌ఫార్మ్‌ను విజువలైజ్ చేయడం. ముందుగా, మీకు అవసరమైన లైబ్రరీలు ఇన్‌స్టాల్ చేయబడి ఉన్నాయని నిర్ధారించుకోండి:

pip install librosa numpy matplotlib

ఇప్పుడు, ఒక ఆడియో ఫైల్‌ను (ఉదా., ఒక `.wav` ఫైల్) లోడ్ చేసి అది ఎలా కనిపిస్తుందో చూద్దాం.

            
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np

# Define the path to your audio file
# For a global audience, using a generic path is better
audio_path = 'path/to/your/audio.wav'

# Load the audio file
# y is the time series (the audio waveform as a NumPy array)
# sr is the sampling rate
y, sr = librosa.load(audio_path)

# Let's see the shape of our data
print(f"Waveform shape: {y.shape}")
print(f"Sampling rate: {sr} Hz")

# Visualize the waveform
plt.figure(figsize=(14, 5))
librosa.display.waveshow(y, sr=sr)
plt.title('Audio Waveform')
plt.xlabel('Time (s)')
plt.ylabel('Amplitude')
plt.grid(True)
plt.show()

మీరు ఈ కోడ్‌ను అమలు చేసినప్పుడు, మీరు సమయం గడిచే కొద్దీ ఆడియో యొక్క ఆంప్లిట్యూడ్ యొక్క ప్లాట్‌ను చూస్తారు. ఈ టైమ్-డొమైన్ ప్రాతినిధ్యం సహజంగా ఉంటుంది, కానీ ఇది ఫ్రీక్వెన్సీ కంటెంట్ గురించి స్పష్టంగా చెప్పదు, ఇది ప్రసంగాన్ని అర్థం చేసుకోవడానికి చాలా ముఖ్యం.

ప్రీ-ప్రాసెసింగ్ పైప్‌లైన్: ఆడియోను శుభ్రపరచడం మరియు నార్మలైజ్ చేయడం

నిజ-ప్రపంచ ఆడియో గజిబిజిగా ఉంటుంది. ఇందులో నేపథ్య శబ్దం, నిశ్శబ్ద కాలాలు మరియు వాల్యూమ్‌లో వైవిధ్యాలు ఉంటాయి. "చెత్త ఇన్‌పుట్, చెత్త అవుట్‌పుట్" అనే సూత్రం మెషిన్ లెర్నింగ్‌లో ప్రత్యేకంగా వర్తిస్తుంది. మన ఫీచర్ ఎక్స్‌ట్రాక్షన్ దృఢంగా మరియు స్థిరంగా ఉండేలా చూసుకోవడానికి ఆడియోను శుభ్రపరచడం మరియు ప్రామాణీకరించడం ప్రీ-ప్రాసెసింగ్ యొక్క కీలకమైన దశ.

1. నార్మలైజేషన్

ఆడియో ఫైల్‌లు చాలా భిన్నమైన వాల్యూమ్ స్థాయిలను కలిగి ఉండవచ్చు. పెద్ద శబ్దాలతో రికార్డ్ చేయబడిన వాటిపై శిక్షణ పొందిన మోడల్, నిశ్శబ్దమైన వాటిపై పేలవంగా పనిచేయవచ్చు. నార్మలైజేషన్ ఆంప్లిట్యూడ్ విలువలను ఒక స్థిరమైన పరిధికి, సాధారణంగా -1.0 మరియు 1.0 మధ్య స్కేల్ చేస్తుంది. ఒక సాధారణ పద్ధతి పీక్ నార్మలైజేషన్, ఇక్కడ మీరు మొత్తం సిగ్నల్‌ను దాని గరిష్ట సంపూర్ణ ఆంప్లిట్యూడ్‌తో భాగిస్తారు.

            
# Peak normalization
max_amplitude = np.max(np.abs(y))
if max_amplitude > 0:
    y_normalized = y / max_amplitude
else:
    y_normalized = y # Avoid division by zero for silent audio

print(f"Original max amplitude: {np.max(np.abs(y)):.2f}")
print(f"Normalized max amplitude: {np.max(np.abs(y_normalized)):.2f}")

2. రీశాంప్లింగ్

ఒక ASR మోడల్ తన ఇన్‌పుట్ అంతా ఒకే శాంప్లింగ్ రేటును కలిగి ఉండాలని ఆశిస్తుంది. అయితే, ఆడియో ఫైల్‌లు విభిన్న రేట్లతో (ఉదా., 48 kHz, 44.1 kHz, 22.05 kHz) వివిధ మూలాల నుండి రావచ్చు. మనం వాటిని ఒక లక్ష్య రేటుకు రీశాంపుల్ చేయాలి, తరచుగా స్పీచ్ రికగ్నిషన్ పనుల కోసం 16 kHz.

            
target_sr = 16000
if sr != target_sr:
    y_resampled = librosa.resample(y=y, orig_sr=sr, target_sr=target_sr)
    print(f"Resampled waveform shape: {y_resampled.shape}")
    sr = target_sr # Update the sampling rate variable
else:
    y_resampled = y

3. ఫ్రేమింగ్ మరియు విండోయింగ్

ప్రసంగం ఒక డైనమిక్, నాన్-స్టేషనరీ సిగ్నల్; దాని గణాంక లక్షణాలు (ఫ్రీక్వెన్సీ కంటెంట్ వంటివి) కాలక్రమేణా మారుతాయి. ఉదాహరణకు, 'sh' శబ్దంలో అధిక-ఫ్రీక్వెన్సీ కంటెంట్ ఉంటుంది, అయితే 'o' అచ్చులో తక్కువ-ఫ్రీక్వెన్సీ కంటెంట్ ఉంటుంది. మొత్తం ఆడియో క్లిప్‌ను ఒకేసారి విశ్లేషించడం ఈ వివరాలను కలిపేస్తుంది.

దీనిని పరిష్కరించడానికి, మనం ఫ్రేమింగ్ అనే టెక్నిక్‌ను ఉపయోగిస్తాము. మనం ఆడియో సిగ్నల్‌ను చిన్న, అతివ్యాప్తి చెందుతున్న ఫ్రేమ్‌లుగా, సాధారణంగా 20-40 మిల్లీసెకన్ల పొడవుతో కత్తిరిస్తాము. ప్రతి చిన్న ఫ్రేమ్‌లో, సిగ్నల్ క్వాసీ-స్టేషనరీ అని మనం భావించవచ్చు, ఇది ఫ్రీక్వెన్సీ విశ్లేషణకు అనుకూలంగా ఉంటుంది.

అయితే, సిగ్నల్‌ను ఫ్రేమ్‌లుగా కత్తిరించడం వల్ల అంచుల వద్ద పదునైన అస్థిరతలు ఏర్పడతాయి, ఇది ఫ్రీక్వెన్సీ డొమైన్‌లో అవాంఛిత ఆర్టిఫ్యాక్ట్‌లను పరిచయం చేస్తుంది (ఈ దృగ్విషయాన్ని స్పెక్ట్రల్ లీకేజ్ అంటారు). దీనిని తగ్గించడానికి, మనం ప్రతి ఫ్రేమ్‌కు ఒక విండో ఫంక్షన్ (ఉదా., హమ్మింగ్, హన్నింగ్, లేదా బ్లాక్‌మన్ విండో) వర్తింపజేస్తాము. ఈ ఫంక్షన్ ఫ్రేమ్ యొక్క ఆంప్లిట్యూడ్‌ను మొదట మరియు చివరలో సున్నాకి తగ్గిస్తుంది, పరివర్తనలను సున్నితంగా చేసి ఆర్టిఫ్యాక్ట్‌లను తగ్గిస్తుంది.

మనం షార్ట్-టైమ్ ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (STFT) నిర్వహించినప్పుడు లిబ్రోసా ఫ్రేమింగ్ మరియు విండోయింగ్‌ను స్వయంచాలకంగా నిర్వహిస్తుంది, దీని గురించి మనం తరువాత చర్చిస్తాము.

సమయం నుండి ఫ్రీక్వెన్సీకి: ఫోరియర్ ట్రాన్స్‌ఫార్మ్ యొక్క శక్తి

వేవ్‌ఫార్మ్ మనకు సమయంతో పాటు ఆంప్లిట్యూడ్ ఎలా మారుతుందో చూపిస్తుంది, కానీ ప్రసంగం కోసం, ప్రతి క్షణంలో ఏ ఫ్రీక్వెన్సీలు ఉన్నాయో మనకు ఎక్కువ ఆసక్తి ఉంటుంది. ఇక్కడే ఫోరియర్ ట్రాన్స్‌ఫార్మ్ వస్తుంది. ఇది ఒక సిగ్నల్‌ను టైమ్ డొమైన్ నుండి దానిలోని ఫ్రీక్వెన్సీ భాగాల లోకి విడదీసే ఒక గణిత సాధనం.

దీనిని ఒక ప్రిజంలా భావించండి. ఒక ప్రిజం తెల్లని కాంతి కిరణాన్ని (ఒక టైమ్-డొమైన్ సిగ్నల్) తీసుకొని దానిని ఇంద్రధనస్సు రంగులుగా (ఫ్రీక్వెన్సీ-డొమైన్ భాగాలు) విభజిస్తుంది. ఫోరియర్ ట్రాన్స్‌ఫార్మ్ ధ్వనికి అదే పని చేస్తుంది.

షార్ట్-టైమ్ ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (STFT)

ప్రసంగం యొక్క ఫ్రీక్వెన్సీ కంటెంట్ కాలక్రమేణా మారుతుంది కాబట్టి, మనం మొత్తం సిగ్నల్‌కు ఒకే ఫోరియర్ ట్రాన్స్‌ఫార్మ్‌ను వర్తింపజేయలేము. బదులుగా, మనం షార్ట్-టైమ్ ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (STFT)ను ఉపయోగిస్తాము. STFT అనేది ఈ ప్రక్రియ:

సిగ్నల్‌ను చిన్న, అతివ్యాప్తి చెందుతున్న ఫ్రేమ్‌లుగా కత్తిరించడం (ఫ్రేమింగ్).
ప్రతి ఫ్రేమ్‌కు ఒక విండో ఫంక్షన్‌ను వర్తింపజేయడం (విండోయింగ్).
ప్రతి విండోడ్ ఫ్రేమ్‌పై డిస్క్రీట్ ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (DFT)ను లెక్కించడం. ఫాస్ట్ ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (FFT) అనేది కేవలం DFTను లెక్కించడానికి ఒక అత్యంత సమర్థవంతమైన అల్గోరిథం.

STFT యొక్క ఫలితం ఒక సంక్లిష్ట-విలువ గల మ్యాట్రిక్స్, ఇక్కడ ప్రతి కాలమ్ ఒక ఫ్రేమ్‌ను సూచిస్తుంది, మరియు ప్రతి రో ఒక ఫ్రీక్వెన్సీ బిన్‌ను సూచిస్తుంది. ఈ మ్యాట్రిక్స్‌లోని విలువల పరిమాణం మనకు ప్రతి ఫ్రీక్వెన్సీ యొక్క తీవ్రతను ప్రతి సమయంలో తెలియజేస్తుంది.

ఫ్రీక్వెన్సీలను విజువలైజ్ చేయడం: స్పెక్ట్రోగ్రామ్

STFT యొక్క అవుట్‌పుట్‌ను విజువలైజ్ చేయడానికి అత్యంత సాధారణ మార్గం ఒక స్పెక్ట్రోగ్రామ్. ఇది ఒక 2D ప్లాట్:

X-అక్షం: సమయం
Y-అక్షం: ఫ్రీక్వెన్సీ
రంగు/తీవ్రత: ఒక నిర్దిష్ట సమయంలో ఒక నిర్దిష్ట ఫ్రీక్వెన్సీ యొక్క ఆంప్లిట్యూడ్ (లేదా శక్తి).

ఒక స్పెక్ట్రోగ్రామ్ మనకు ధ్వనిని "చూడటానికి" అనుమతించే ఒక శక్తివంతమైన సాధనం. మనం దానిని చూడటం ద్వారా అచ్చులు, హల్లులు మరియు ప్రసంగం యొక్క లయను గుర్తించగలము. లిబ్రోసాతో ఒకటి సృష్టిద్దాం.

            
# We'll use the resampled audio from the previous step
y_audio = y_resampled

# STFT parameters
# n_fft is the window size for the FFT. A common value is 2048.
# hop_length is the number of samples between successive frames. Determines the overlap.
# win_length is the length of the window function. Usually same as n_fft.
n_fft = 2048
hop_length = 512

# Perform STFT
stft_result = librosa.stft(y_audio, n_fft=n_fft, hop_length=hop_length)

# The result is complex. We take the magnitude and convert to decibels (dB) for visualization.
D = librosa.amplitude_to_db(np.abs(stft_result), ref=np.max)

# Display the spectrogram
plt.figure(figsize=(14, 5))
librosa.display.specshow(D, sr=sr, hop_length=hop_length, x_axis='time', y_axis='log')
plt.colorbar(format='%+2.0f dB')
plt.title('Spectrogram (log frequency scale)')
plt.xlabel('Time (s)')
plt.ylabel('Frequency (Hz)')
plt.show()

ఈ విజువలైజేషన్ ప్రసంగం యొక్క గొప్ప స్పెక్ట్రల్ ఆకృతిని వెల్లడిస్తుంది. ప్రకాశవంతమైన క్షితిజ సమాంతర బ్యాండ్‌లను ఫార్మాంట్స్ అంటారు, ఇవి నిర్దిష్ట ఫ్రీక్వెన్సీల చుట్టూ ధ్వని శక్తి యొక్క కేంద్రీకరణలు. విభిన్న అచ్చు శబ్దాల మధ్య తేడాను గుర్తించడానికి ఫార్మాంట్స్ చాలా ముఖ్యమైనవి.

అధునాతన ఫీచర్ ఎక్స్‌ట్రాక్షన్: మెల్-ఫ్రీక్వెన్సీ సెప్స్ట్రల్ కోఎఫిషియంట్స్ (MFCCs)

స్పెక్ట్రోగ్రామ్ ఒక గొప్ప ప్రాతినిధ్యం అయినప్పటికీ, ASR కోసం దీనికి రెండు సమస్యలు ఉన్నాయి:

గ్రహణశక్తి అసమానత (Perceptual Inconsistency): ఫ్రీక్వెన్సీ అక్షం సరళంగా ఉంటుంది. అయితే, మానవ వినికిడి అలా ఉండదు. మనం పిచ్‌ను ఒక లాగరిథమిక్ స్కేల్‌లో గ్రహిస్తాము; మనం తక్కువ ఫ్రీక్వెన్సీలలో మార్పులకు ఎక్కువ సున్నితంగా ఉంటాము, అధిక ఫ్రీక్వెన్సీల కంటే. ఉదాహరణకు, 100 Hz మరియు 200 Hz మధ్య తేడా 10,000 Hz మరియు 10,100 Hz మధ్య తేడా కంటే చాలా ఎక్కువగా గమనించదగినది.
అధిక డైమెన్షనాలిటీ మరియు సహసంబంధం (High Dimensionality and Correlation): స్పెక్ట్రోగ్రామ్‌లో చాలా డేటా ఉంటుంది, మరియు ప్రక్కనే ఉన్న ఫ్రీక్వెన్సీ బిన్‌లు తరచుగా అధికంగా సహసంబంధం కలిగి ఉంటాయి. ఇది కొన్ని మెషిన్ లెర్నింగ్ మోడల్స్ సమర్థవంతంగా నేర్చుకోవడానికి కష్టతరం చేస్తుంది.

మెల్-ఫ్రీక్వెన్సీ సెప్స్ట్రల్ కోఎఫిషియంట్స్ (MFCCs) ఈ సమస్యలను పరిష్కరించడానికి రూపొందించబడ్డాయి. అవి సాంప్రదాయ ASR కోసం గోల్డ్-స్టాండర్డ్ ఫీచర్లు మరియు నేటికీ ఒక శక్తివంతమైన బేస్‌లైన్‌గా నిలుస్తున్నాయి. MFCCలను సృష్టించే ప్రక్రియ మానవ వినికిడి యొక్క కొన్ని అంశాలను అనుకరిస్తుంది.

మెల్ స్కేల్

గ్రహణశక్తి సమస్యను పరిష్కరించడానికి, మనం మెల్ స్కేల్ను ఉపయోగిస్తాము. ఇది శ్రోతలు ఒకదానికొకటి సమాన దూరంలో ఉన్నాయని అంచనా వేసే పిచ్‌ల యొక్క ఒక గ్రహణశక్తి స్కేల్. ఇది 1 kHz కంటే తక్కువ ఫ్రీక్వెన్సీలలో సుమారుగా సరళంగా మరియు దాని కంటే ఎక్కువ ఫ్రీక్వెన్సీలలో లాగరిథమిక్‌గా ఉంటుంది. మానవ గ్రహణశక్తితో మెరుగ్గా సరిపోలడానికి మనం ఫ్రీక్వెన్సీలను హెర్ట్జ్ నుండి మెల్ స్కేల్‌కు మారుస్తాము.

MFCC గణన పైప్‌లైన్

ఆడియో సిగ్నల్ నుండి MFCCలు ఎలా లెక్కించబడతాయో ఇక్కడ ఒక సరళీకృత దశలవారీ విచ్ఛిన్నం ఉంది:

ఫ్రేమింగ్ & విండోయింగ్: STFT కోసం ఉన్నట్లే.
FFT & పవర్ స్పెక్ట్రమ్: ప్రతి ఫ్రేమ్‌కు FFTని లెక్కించి, ఆపై పవర్ స్పెక్ట్రమ్ (స్క్వేర్డ్ మాగ్నిట్యూడ్)ను లెక్కించండి.
మెల్ ఫిల్టర్‌బ్యాంక్‌ను వర్తింపజేయండి: ఇది కీలకమైన దశ. త్రిభుజాకార ఫిల్టర్‌ల సమితి (ఒక ఫిల్టర్‌బ్యాంక్) పవర్ స్పెక్ట్రమ్‌కు వర్తించబడుతుంది. ఈ ఫిల్టర్‌లు తక్కువ ఫ్రీక్వెన్సీలలో సరళంగా మరియు అధిక ఫ్రీక్వెన్సీలలో లాగరిథమిక్‌గా అమర్చబడి ఉంటాయి, మెల్ స్కేల్‌ను అనుకరిస్తాయి. ఈ దశ వివిధ ఫ్రీక్వెన్సీ బిన్‌ల నుండి శక్తిని తక్కువ సంఖ్యలో మెల్-స్కేల్ బిన్‌లలోకి సమూహపరుస్తుంది, డైమెన్షనాలిటీని తగ్గిస్తుంది.
లాగరిథం తీసుకోండి: ఫిల్టర్‌బ్యాంక్ శక్తుల యొక్క లాగరిథం తీసుకోండి. ఇది మానవ శబ్ద గ్రహణశక్తిని అనుకరిస్తుంది, ఇది కూడా లాగరిథమిక్.
డిస్క్రీట్ కోసైన్ ట్రాన్స్‌ఫార్మ్ (DCT): లాగ్ ఫిల్టర్‌బ్యాంక్ శక్తులకు DCTని వర్తింపజేయండి. DCT, FFTని పోలి ఉంటుంది కానీ కేవలం వాస్తవ సంఖ్యలను మాత్రమే ఉపయోగిస్తుంది. ఇక్కడ దాని ఉద్దేశ్యం ఫిల్టర్‌బ్యాంక్ శక్తులను డి-కోరిలేట్ చేయడం. ఫలిత DCT కోఎఫిషియంట్స్ అత్యంత కాంపాక్ట్‌గా ఉంటాయి మరియు అవసరమైన స్పెక్ట్రల్ సమాచారాన్ని సంగ్రహిస్తాయి.

ఫలితంగా వచ్చే కోఎఫిషియంట్స్ MFCCలు. సాధారణంగా, మనం మొదటి 13-20 కోఎఫిషియంట్స్‌ను మాత్రమే ఉంచుతాము, ఎందుకంటే అవి ప్రసంగ ఫోనెమ్‌లకు సంబంధించిన అత్యంత ముఖ్యమైన సమాచారాన్ని కలిగి ఉంటాయి, అయితే అధిక కోఎఫిషియంట్స్ తరచుగా శబ్దం లేదా ప్రసంగ కంటెంట్‌కు తక్కువ సంబంధం ఉన్న సూక్ష్మ వివరాలను సూచిస్తాయి.

పైథాన్‌లో MFCCలను గణించడం

అదృష్టవశాత్తూ, లిబ్రోసా ఈ క్లిష్టమైన ప్రక్రియను ఒకే ఫంక్షన్ కాల్‌తో చాలా సులభం చేస్తుంది.

            
# Calculate MFCCs
# n_mfcc is the number of MFCCs to return
n_mfcc = 13

mfccs = librosa.feature.mfcc(y=y_audio, sr=sr, n_fft=n_fft, hop_length=hop_length, n_mfcc=n_mfcc)

print(f"MFCCs shape: {mfccs.shape}")

# Visualize the MFCCs
plt.figure(figsize=(14, 5))
librosa.display.specshow(mfccs, sr=sr, hop_length=hop_length, x_axis='time')
plt.colorbar(label='MFCC Coefficient Value')
plt.title('MFCCs')
plt.xlabel('Time (s)')
plt.ylabel('MFCC Coefficient Index')
plt.show()

అవుట్‌పుట్ ఒక 2D అర్రే, ఇక్కడ ప్రతి కాలమ్ ఒక ఫ్రేమ్ మరియు ప్రతి రో ఒక MFCC కోఎఫిషియంట్. ఈ కాంపాక్ట్, గ్రహణశక్తికి సంబంధించిన, మరియు డి-కోరిలేట్ చేయబడిన మ్యాట్రిక్స్ ఒక మెషిన్ లెర్నింగ్ మోడల్‌కు సరైన ఇన్‌పుట్.

అన్నింటినీ కలిపి చూడటం: ఒక ప్రాక్టికల్ వర్క్‌ఫ్లో

మనం నేర్చుకున్నదంతా ఒకే, పునర్వినియోగ ఫంక్షన్‌లో ఏకీకృతం చేద్దాం, ఇది ఒక ఆడియో ఫైల్ పాత్‌ను తీసుకొని ప్రాసెస్ చేయబడిన MFCC ఫీచర్‌లను తిరిగి ఇస్తుంది.

            
import librosa
import numpy as np

def extract_features_mfcc(audio_path):
    """Extracts MFCC features from an audio file.

    Args:
        audio_path (str): Path to the audio file.

    Returns:
        np.ndarray: A 2D array of MFCC features (n_mfcc x n_frames).
    """
    try:
        # 1. Load the audio file
        y, sr = librosa.load(audio_path, duration=30) # Load first 30 seconds

        # 2. Resample to a standard rate (e.g., 16 kHz)
        target_sr = 16000
        if sr != target_sr:
            y = librosa.resample(y=y, orig_sr=sr, target_sr=target_sr)
            sr = target_sr

        # 3. Normalize the audio
        max_amp = np.max(np.abs(y))
        if max_amp > 0:
            y = y / max_amp

        # 4. Extract MFCCs
        # Common parameters for speech
        n_fft = 2048
        hop_length = 512
        n_mfcc = 13

        mfccs = librosa.feature.mfcc(
            y=y,
            sr=sr,
            n_fft=n_fft,
            hop_length=hop_length,
            n_mfcc=n_mfcc
        )

        # (Optional but recommended) Feature scaling
        # Standardize features to have zero mean and unit variance
        from sklearn.preprocessing import StandardScaler
        scaler = StandardScaler()
        mfccs_scaled = scaler.fit_transform(mfccs.T).T

        return mfccs_scaled

    except Exception as e:
        print(f"Error processing {audio_path}: {e}")
        return None

# --- Example Usage ---
audio_file = 'path/to/your/audio.wav'
features = extract_features_mfcc(audio_file)

if features is not None:
    print(f"Successfully extracted features with shape: {features.shape}")
    # This 'features' array is now ready to be fed into a machine learning model.

MFCCలకు మించి: ఇతర ముఖ్యమైన ఆడియో ఫీచర్లు

MFCCలు ఒక శక్తివంతమైన మరియు విస్తృతంగా ఉపయోగించే ఫీచర్ అయినప్పటికీ, ఆడియో ప్రాసెసింగ్ రంగం చాలా విస్తృతమైనది. డీప్ లెర్నింగ్ యొక్క ఆవిర్భావంతో, ఇతర ఫీచర్లు, కొన్నిసార్లు సరళమైనవి, అత్యంత ప్రభావవంతంగా నిరూపించబడ్డాయి.

లాగ్-మెల్ స్పెక్ట్రోగ్రామ్స్: ఇది DCTకి ముందు MFCC గణనలో మధ్యంతర దశ. ఆధునిక కన్వల్యూషనల్ న్యూరల్ నెట్‌వర్క్‌లు (CNNలు) ప్రాదేశిక నమూనాలను నేర్చుకోవడంలో అద్భుతంగా ఉంటాయి. మొత్తం లాగ్-మెల్ స్పెక్ట్రోగ్రామ్‌ను ఒక CNNలోకి ఫీడ్ చేయడం ద్వారా, మోడల్ సంబంధిత సహసంబంధాలను స్వయంగా నేర్చుకోగలదు, కొన్నిసార్లు మాన్యువల్‌గా డి-కోరిలేట్ చేయబడిన MFCCలను అధిగమిస్తుంది. ఇది ఆధునిక, ఎండ్-టు-ఎండ్ ASR సిస్టమ్‌లలో చాలా సాధారణ విధానం.
జీరో-క్రాసింగ్ రేట్ (ZCR): ఇది సిగ్నల్ గుర్తును మార్చే రేటు (పాజిటివ్ నుండి నెగటివ్‌కు లేదా దీనికి విరుద్ధంగా). ఇది సిగ్నల్ యొక్క శబ్దం లేదా ఫ్రీక్వెన్సీ కంటెంట్ యొక్క ఒక సాధారణ కొలత. 's' లేదా 'f' వంటి అన్‌వాయిస్డ్ శబ్దాలు అచ్చుల వంటి వాయిస్డ్ శబ్దాల కంటే చాలా ఎక్కువ ZCR కలిగి ఉంటాయి.
స్పెక్ట్రల్ సెంట్రాయిడ్: ఇది స్పెక్ట్రమ్ యొక్క "సెంటర్ ఆఫ్ మాస్"ను గుర్తిస్తుంది. ఇది ఒక ధ్వని యొక్క ప్రకాశం యొక్క కొలత. అధిక స్పెక్ట్రల్ సెంట్రాయిడ్ ఎక్కువ అధిక-ఫ్రీక్వెన్సీ కంటెంట్‌తో ప్రకాశవంతమైన ధ్వనికి అనుగుణంగా ఉంటుంది.
క్రోమా ఫీచర్స్: ఇవి 12 ప్రామాణిక పిచ్ క్లాస్‌లలో (C, C#, D, మొదలైనవి) ప్రతి దానిలో శక్తిని సూచించే ఫీచర్లు. ప్రధానంగా సంగీత విశ్లేషణ కోసం (ఉదా., కార్డ్ రికగ్నిషన్) ఉపయోగించబడినప్పటికీ, అవి టోనల్ భాషలలో లేదా ప్రోసోడీని విశ్లేషించడానికి ఉపయోగపడతాయి.

ముగింపు మరియు తదుపరి దశలు

మనం ధ్వని యొక్క ప్రాథమిక భౌతిక శాస్త్రం నుండి అధునాతన, మెషిన్-రీడబుల్ ఫీచర్ల సృష్టి వరకు ప్రయాణించాము. ఇక్కడ ముఖ్యమైన విషయం ఏమిటంటే, ఆడియో సిగ్నల్ ప్రాసెసింగ్ అనేది ఒక పరివర్తన ప్రక్రియ - ముడి, సంక్లిష్టమైన వేవ్‌ఫార్మ్‌ను తీసుకొని దానిని ప్రసంగానికి ముఖ్యమైన లక్షణాలను హైలైట్ చేసే ఒక కాంపాక్ట్, అర్థవంతమైన ప్రాతినిధ్యంలోకి క్రమపద్ధతిలో మార్చడం.

మీకు ఇప్పుడు అర్థమైంది:

డిజిటల్ ఆడియో అనేది దాని శాంప్లింగ్ రేట్ మరియు బిట్ డెప్త్ ద్వారా నిర్వచించబడిన నిరంతర ధ్వని తరంగం యొక్క ఒక వివిక్త ప్రాతినిధ్యం.
ఒక దృఢమైన వ్యవస్థను సృష్టించడానికి నార్మలైజేషన్ మరియు రీశాంప్లింగ్ వంటి ప్రీ-ప్రాసెసింగ్ దశలు చాలా ముఖ్యమైనవి.
ఫోరియర్ ట్రాన్స్‌ఫార్మ్ (STFT) అనేది టైమ్ డొమైన్ నుండి ఫ్రీక్వెన్సీ డొమైన్‌కు ప్రవేశ ద్వారం, దీనిని స్పెక్ట్రోగ్రామ్ ద్వారా విజువలైజ్ చేస్తారు.
MFCCలు అనేవి మెల్ స్కేల్ను ఉపయోగించి మానవ శ్రవణ గ్రహణశక్తిని అనుకరించే మరియు DCTని ఉపయోగించి సమాచారాన్ని డి-కోరిలేట్ చేసే ఒక శక్తివంతమైన ఫీచర్ సెట్.

అన్ని విజయవంతమైన స్పీచ్ రికగ్నిషన్ సిస్టమ్‌లు నిర్మించబడిన పునాది అధిక-నాణ్యత ఫీచర్ ఎక్స్‌ట్రాక్షన్. ఆధునిక ఎండ్-టు-ఎండ్ డీప్ లెర్నింగ్ మోడల్స్ బ్లాక్ బాక్స్‌ల వలె అనిపించినప్పటికీ, అవి ఇప్పటికీ అంతర్గతంగా ఈ రకమైన పరివర్తనను నిర్వహించడానికి ప్రాథమికంగా నేర్చుకుంటున్నాయి.

ఇక్కడ నుండి ఎక్కడికి వెళ్ళాలి?

ప్రయోగం చేయండి: ఈ గైడ్‌లోని కోడ్‌ను విభిన్న ఆడియో ఫైల్‌లతో ఉపయోగించండి. ఒక పురుషుని స్వరం, ఒక స్త్రీ స్వరం, ఒక శబ్దంతో కూడిన రికార్డింగ్, మరియు ఒక శుభ్రమైన రికార్డింగ్‌ను ప్రయత్నించండి. వేవ్‌ఫార్మ్‌లు, స్పెక్ట్రోగ్రామ్‌లు, మరియు MFCCలు ఎలా మారుతాయో గమనించండి.
ఉన్నత-స్థాయి లైబ్రరీలను అన్వేషించండి: శీఘ్ర అప్లికేషన్‌లను రూపొందించడానికి, Google యొక్క `SpeechRecognition` వంటి లైబ్రరీలు అన్ని సిగ్నల్ ప్రాసెసింగ్ మరియు మోడలింగ్‌ను మీ కోసం నిర్వహించే ఒక సులభమైన APIని అందిస్తాయి. ఇది చివరి ఫలితాన్ని చూడటానికి ఒక గొప్ప మార్గం.
ఒక మోడల్‌ను నిర్మించండి: ఇప్పుడు మీరు ఫీచర్లను సంగ్రహించగలరు కాబట్టి, తదుపరి తార్కిక దశ వాటిని ఒక మెషిన్ లెర్నింగ్ మోడల్‌లోకి ఫీడ్ చేయడం. TensorFlow/Keras లేదా PyTorch ఉపయోగించి ఒక సాధారణ కీవర్డ్-స్పాటింగ్ మోడల్‌తో ప్రారంభించండి. మీరు ఉత్పత్తి చేసిన MFCCలను ఒక సాధారణ న్యూరల్ నెట్‌వర్క్‌కు ఇన్‌పుట్‌గా ఉపయోగించవచ్చు.
డేటాసెట్‌లను కనుగొనండి: ఒక నిజమైన ASR మోడల్‌కు శిక్షణ ఇవ్వడానికి, మీకు చాలా డేటా అవసరం. LibriSpeech, Mozilla Common Voice, లేదా TED-LIUM వంటి ప్రసిద్ధ ఓపెన్-సోర్స్ డేటాసెట్‌లను అన్వేషించి పెద్ద-స్థాయి ఆడియో డేటా ఎలా ఉంటుందో చూడండి.

ఆడియో మరియు ప్రసంగ ప్రపంచం ఒక లోతైన మరియు ఆకర్షణీయమైన రంగం. సిగ్నల్ ప్రాసెసింగ్ సూత్రాలను ప్రావీణ్యం పొందడం ద్వారా, మీరు తదుపరి తరం వాయిస్-ఎనేబుల్డ్ టెక్నాలజీని నిర్మించడానికి తలుపులు తెరిచారు.